智能论文笔记

Robustness and risk management via distributional dynamic programming

Mastane Achab , Gergely Neu

分类：机器学习 | 人工智能

2021-12-28

在动态编程（DP）和强化学习（RL）中，代理商学会在通过由Markov决策过程（MDP）建模的环境中顺序交互来实现预期的长期返回。更一般地在分布加强学习（DRL）中，重点是返回的整体分布，而不仅仅是其期望。虽然基于DRL的方法在RL中产生了最先进的性能，但它们涉及尚未充分理解的额外数量（与非分布设置相比）。作为第一个贡献，我们介绍了一类新的分类运营商，以及一个实用的DP算法，用于策略评估，具有强大的MDP解释。实际上，我们的方法通过增强的状态空间重新重新重新重新重新重新格式化，其中每个状态被分成最坏情况的子变量，并且最佳的子变电站，其值分别通过安全和危险的策略最大化。最后，我们派生了分配运营商和DP算法解决了一个新的控制任务：如何区分安全性的最佳动作，以便在最佳政策空间中打破联系？

translated by 谷歌翻译